40 research outputs found

    Deep learning methods in speaker recognition: a review

    Full text link
    This paper summarizes the applied deep learning practices in the field of speaker recognition, both verification and identification. Speaker recognition has been a widely used field topic of speech technology. Many research works have been carried out and little progress has been achieved in the past 5-6 years. However, as deep learning techniques do advance in most machine learning fields, the former state-of-the-art methods are getting replaced by them in speaker recognition too. It seems that DL becomes the now state-of-the-art solution for both speaker verification and identification. The standard x-vectors, additional to i-vectors, are used as baseline in most of the novel works. The increasing amount of gathered data opens up the territory to DL, where they are the most effective

    A szintaktikai szerkezet automatikus feltérképezése a beszédjel prozódiai elemzése alapján

    Get PDF
    A prozódia és a szintaktikai szerkezet közötti összefüggés aligha kérdéses, hiszen számos kutatás foglalkozott már kapcsolatukkal, illetve ezt az összefüggést számos beszédtechnológiai – elsősorban beszéd szintézisét célzó - alkalmazásban ki is használják. Az általánosan elfogadott álláspont szerint a prozódiai és a szintaktikai szerkezet szorosan összefügg ugyan, közöttük a kapcsolat azonban nem egy-egyértelműen meghatározott. Mindenesetre gyakorlati alkalmazások bizonyítják, hogy a szintaktikai elemzés alapján a prozódia jól előrejelezhető és kiválóan előállítható beszédszintetizátor alkalmazásokban. A prozódia és a szintaxis közötti összefüggés másik irányát azonban – nevezetesen a szintaxis visszakövethetőségét prozódiai jegyek alapján – eddig kevesen vizsgálták, illetve ha mégis, ezen vizsgálatok jellemzően minimál mondatpárok prozódia alapján történő elkülöníthetőségére vonatkoztak. Bár e vizsgálatok értékét nem szeretnénk alábecsülni, hiszen fontos elméleti jelentőségük van, eredményeik a gyakorlati alkalmazásokat tekintve azonban csak elvétve, nem igazán életszerű körülmények között lennének felhasználhatók. Cikkünkben ezért arra keressük a választ, hogy lehetséges-e a prozódiai szerkezet feltárása alapján szintaktikai szerkezetre vonatkozó információ kinyerése általánosabb, a mindennapi élethez jobban köthető tematika esetében. Miután a kutatás célja az automatikus elemezhetőség vizsgálata, ezért a prozódiai szerkezet elemzését is automatikus eszközökkel valósítjuk meg. Eredményeink tanúsága szerint a beszédben a szintaktikai frázisok jelentős része jól beazonosítható, ráadásul, a szintaktikai hierarchia magasabb szintjein jól el is helyezhető. Mélyebb szinteken - többszörös beágyazásban - pontos szintaktikai szintbeli elhelyezést nem várhatunk a prozódiától, a határok jelzése azonban megmaradhat

    Folyamatos beszéd szószint automatikus szegmentálása szupraszegmentális jegyek alapján

    Get PDF
    Cikkünkben a folyamatos beszéd szupraszegmentális jegyeken alapuló, szószint szegmentálási lehetőségeit vizsgáljuk statisztikai megközelítésben, rejtett Markov modellek használatával. A szószint szegmentálás a folyamatos gépi beszédfelismerés robosztusságát növelheti zajos körülmények között, illetve csökkentheti a keresési teret a dekódolás folyamán. Rendszerünk az alapfrekvencia és az energiaszint értékeit veszi figyelembe, az időtartamok pontos mérése ugyanis felismerési feladatban nehezen kivitelezhető. A rendszert kötött hangsúlyú nyelvekre dolgoztuk ki, és a magyar mellett finn nyelvre is adaptáltuk, illetve vizsgáltuk kétnyelv rendszerek teljesítményét is, amely a mködés hatékonyságát növelte. A statisztikai alapú szegmentáló eredményeit összehasonlítottuk korábbi, szabálybázisú eredményeinkkel, a magyar, illetve a finn nyelv szegmentálási lehetőségeit számos paraméter függvényében vizsgáltuk. Megállapíthatjuk, hogy kísérleteink alapján a kötött hangsúlyú nyelvek esetén a beszéd szószint tagolása megbízhatóan megvalósítható, ami biztató kilátásokat jelent a kidolgozott rendszer beszédfelismerőbe integrálására vonatkozóan

    An empirical approach for comparing syntax and pros ody driven prominence marking

    Get PDF

    Szótagok automatikus osztályozása spontán beszédben spektrális és prozódiai jellemzők alapján

    Get PDF
    A beszédfolyam automatikus, szavaknak vagy néhány szóból álló szócsoportoknak megfelel szintaktikai egységekre való tagolásában bizonyítottan fontos szerepe van a prozódiai jegyeknek, az alapfrekvenciának és az intenzitásnak. A prozódiai jegyek mellett a magánhangzó minsége is alkalmazható lehet, elssorban a szótag eleji–nem szótag eleji szótagok osztályozására, másodsorban pedig a szóhatár meghatározására is. A jelen kutatásban azt vizsgáljuk, lehetséges-e a magánhangzó-minség alapján a redukálódott magánhangzók automatikus elkülönítése spontán beszédben, illetve magánhangzóminség alapján elvégezhet-e a hangsúlyos szótagok automatikus detektálása
    corecore